home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / dev / www_talk.930 / 001513_daemon _Wed Jun 30 22:34:59 1993.msg < prev   
Internet Message Format  |  1994-01-24  |  3KB

  1. Received: by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  2.     id AA13108; Wed, 30 Jun 93 22:35:01 MET DST
  3. Return-Path: <mkgray@athena.mit.edu>
  4. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  5.     id AA13104; Wed, 30 Jun 93 22:34:59 MET DST
  6. Received: from ATHENA-AS-WELL.MIT.EDU by dxmint.cern.ch (5.65/DEC-Ultrix/4.3)
  7.     id AA11512; Wed, 30 Jun 1993 22:58:22 +0200
  8. Received: from URANUS.MIT.EDU by Athena.MIT.EDU with SMTP
  9.     id AA17474; Wed, 30 Jun 93 16:58:20 EDT
  10. From: mkgray@athena.mit.edu
  11. Received: by uranus.MIT.EDU (AIX 3.2/UCB 5.64/4.7) id AA23487; Wed, 30 Jun 1993 16:58:18 -0400
  12. Message-Id: <9306302058.AA23487@uranus.MIT.EDU>
  13. To: sanders@bsdi.com
  14. Cc: www-talk@nxoc01.cern.ch
  15. Subject: Re: searchable index of the web 
  16. In-Reply-To: Your message of Wed, 30 Jun 93 15:30:47 -0500.
  17.              <9306302030.AA09977@austin.BSDI.COM> 
  18. Date: Wed, 30 Jun 93 16:58:15 EDT
  19.  
  20. Ok, how "big" is the Web.  Here is what W4 has found out.
  21. Actually, first I'd better explain a little bit about what the wanderer does.
  22. It does a simple depth first search, with an added feature I call 'getting
  23. bored'.  That is, if it finds a number of documents that have the same
  24. URL, up to the last field (eg http://foo/bar/blah, http://foo/bar/baz, 
  25. http://foo/bar/more) it will eventually get 'bored' and skip it.  This makes
  26. it go a little quicker.  Of course, it potentially is losing some documents
  27. here, but probably not.
  28.  
  29. W4 took many hours (maybe 20) to run, but I don't remember exactly, because it
  30. saves state so I could kill it and restart it whenever I wanted.  Well, in
  31. total, the W4 found more than 17,000 http documents (didn't follow any other
  32. kinds of links) and more than 125 unique hosts.  In the current version,
  33. it *only* retrieved the URL of the document.
  34. In the next version, I hope to have it do the following other things.
  35.  
  36. o    Get the <title>Title</title> of the document
  37. o    Get the length of the document
  38. o    Do a 'keyword' analysis of the document
  39. o    Count the number of links in a document
  40. o    Improve on the boredom system
  41.  
  42. By a 'keyword' analysis, I mean looking at the document for words that
  43. appear frequently, but aren't normally common words.  Additionally, titles
  44. and things appearing in headers would be good candidates for keyword searches.
  45. I'll try and get the current code at least clean enough that I'm willing to
  46. let everyone in the world to see it, but if you *really* want to see it now,
  47. send me mail.  Any other suggestions would be welcome.
  48.  
  49. Once this index is produced, it will be searchable via http, and I suppose
  50. by WAIS though I really detest the way WAIS restricts searches.  In any case,
  51. there is a possibility that this will be done by the end of the summer.
  52.  
  53.                         Matthew Gray
  54.                         mkgray@athena.mit.edu